2024/05/05
なぜ正則化を行うのか:
\[
最小二乗推定量はいつでも求まるわけではなく、X^TXが正則でない(逆行列を持たない)場合は求まらない。
X^TXが可逆でなくても安定した推定を行うため
\]
代表的な正則化法はL1正則化とL2正則化である。
リッジ回帰はL2正則化を用いた回帰でLasso回帰がL1正則化を用いた回帰である。
リッジ回帰推定量は
\[
\hat{\beta}_R = \arg \min(\| Y - X\beta \|^2+ \lambda \| \beta \|_2^2)
\]
\[\lambdaは正則化パラメーターで交差検証法やMallows'Cp基準によって選択される。\]
L2正則化の特徴:
・L1正則化と比べてベクトルの各成分を完全な0にはしない。
・均等に重みを小さくするため、外れ値やノイズに対するロバスト性が高まる。
Lasso回帰推定量は
\[
\hat{\beta}_L = \arg\min(\| Y-X\beta \|^2 + \lambda \| \beta\|_1)
\]
正則化を加えることで推定量の分散を抑えることができる。また正則化が強すぎると推定量が原点に向けて縮小されすぎる。(過小適合)
L1正則化の欠点:2つの相関の強い変数があるとその2つの変数間で変数選択が安定しない。
L1正則化の特徴:
・L2正則化と比べてベクトルの各成分が0を取りやすいように正則化する。→スパースな軽いモデルになる。
・スパースなので解釈性が高い。
・高次元小標本データの場合にスパース性を利用して、ゼロと推定された説明変数をモデルから取り除くという説明変数の選択ができる。
・下の図の解釈:L1正則化はスパース性のため、正則化項の制約が母数空間の軸上で尖った領域となる。→軸上(いくつかの成分がゼロとなる)で極地を取りやすい。
Elastic-Netとは
L1正則化とL2正則化を混ぜた手法。正則化項として以下を用いる。
\[
\lambda(\alpha\| \beta \|_1+\frac{(1-\alpha)}{2}\| \beta \|_2^2)
\]
参考:
・統計検定準1級ワークブック 第16章
・正則行列の条件
・https://qiita.com/Mark-N/items/0323d420af46d3ed9183
・argminとargmax
・https://zenn.dev/yuto_mo/articles/d431682e824dd2